تشخیص برون خط کلمات دست نوشته فارسی به کمک بلوک بندی تطبیقی

پایان نامه
چکیده

تشخیص خودکار متن یکی از زیر مجموعه های پردازش تصویر است که به طور گسترده در کتابخانه دیجیتال، خواندن آدرس پستی نامه ها، خواندن چک های بانکی، خواندن فرم ها و پرسشنامه ها استفاده می شود. بازشناسی متون دست نوشته فارسی در دو سطح کلی برون خط و بر خط انجام می پذیرد که سیستم های برون خط خود به دو دسته تقسیم می شود: سیستم های مبتنی بر جداسازی و سیستم های کلی نگر. در سیستم های مبتنی بر جداسازی سعی می شود کلمات به زیر کلمات و حروف سازنده آن تقسیم شوند و از آنها برای شناسایی استفاده شود اما در سیستم های کلی نگر، ویژگی ها مستقیما از تصویر کلی کلمه استخراج می شود و با مقایسه با داده های فرهنگ لغت، مشابه ترین کلمه به ورودی به عنوان خروجی در نظر گرفته می شود. در این تحقیق روشی برای بازشناسی کلمات دست نوشته فارسی با استفاده از شکل کلی کلمه ارائه شده است. مراحل کار برای شناسایی کلمه شامل: پیش پردازش(باینری کردن، رفع شکستگی، حذف نویز) ،استخراج ویژگی(گرادیان، پروفایل) و طبقه بند (svm،knn ) است. در مرحله پیش پردازش برای تخمین مکان خط کرسی، تغییراتی در روش هیستوگرام افقی انجام می شود. تشخیص خط کرسی به منظور جداسازی نقاط از بدنه اصلی و هم چنین برای نرمال سازی اجزاء بدنه اصلی ضروری است. در نتیجه فرایند پیشنهادی، از تصویر هر کلمه دو تصویر، یکی تصویر بدنه اصلی و دیگری تصویر نقاط و علائم حاصل می شود. برای استخراج ویژگی های کلمه در تصویر بدنه اصلی، پس از نرمال سازی جداگانه اجزای آن، از بلوک بندی تطبیقی و برای استخراج ویژگی از تصویر نقاط و علائم از بلوک بندی یکنواخت استفاده می کنیم. هر بلوک در تصاویر فوق توسط اندازه گرادیان در 32 جهت توصیف می شود. نتایج حاصل با استفاده از طبقه بندهای k نزدیکترین همسایگی و ماشین بردار پشتیبان نشان دهنده بهبود در دقت بازشناسی روش ارائه شده است اما به علت پیش پردازش های صورت گرفته، روش ارائه شده به زمان بیشتری نسبت به روش های پیشین نیازمند است. با خوشه بندی نمونه ها به منظور کاهش فرهنگ لغت نتیجه بهبود میابد. به منظور خوشه بندی نمونه ها از ویژگی های پروفایل و هیستوگرام افقی و الگوریتم isodata استفاده شده است.

منابع مشابه

خوشه بندی سبک نگارش دست نوشته برون خط فارسی

هدف این پایان نامه، یافتن و استخراج ویژگی هایی است که بر مبنای آن بتوان دست خط فارسی را خوشه بندی کرد. در این کار، در ابتدا بر روی ویژگی های مبتنی بر بافت، تمرکز شده است. این ویژگی ها شامل دو دسته ویژگی آماری ماتریس باهم آیی و ویژگی مبتنی بر تبدیل گابور است. برای استخراج این ویژگی ها، یک بافت مناسب در ابعاد 1024×1024 مستقل از محتوای سند، از تصویر دستنوشته ایجاد می شود. از ویژگی های دیگری که در ...

15 صفحه اول

بازشناسی برون خط کلمات دست نوشته فارسی در یک مجموعه ای از لغات

در این پایان نامه بازشناسی برون خط کلمات دست نوشته فارسی در یک فرهنگ لغت محدود مورد مطالعه قرار می گیرد. برای این منظور یک روش دو مرحله ای پیشنهاد می گردد. در مرحله نخست توسط الگوریتم های خوشه بندی سلسله مراتبی وisoclus کلمات موجود در فرهنگ لغت بر اساس تشابه خوشه بندی می شوند. ویژگی های تشابهی به کار رفته در این مرحله، بردارهای پروفایل بالا، پایین، پروژکشن عمودی و تعداد گذر از سیاه به سفید برای...

15 صفحه اول

یک روش دو مرحلهای برای بازشناسی کلمات دستنوشته فارسی به کمک بلوکبندی تطبیقی گرادیان تصویر

This paper presented a two step method for offline handwritten Farsi word recognition. In first step, in order to improve the recognition accuracy and speed, an algorithm proposed for initial eliminating lexicon entries unlikely to match the input image. For lexicon reduction, the words of lexicon are clustered using ISOCLUS and Hierarchal clustering algorithm. Clustering is based on the featur...

متن کامل

قطعه بندی بر خط کلمات دستنویس فارسی

در این پایان نامه الگوریتمی برای قطعه بندی بر خط کلمات دستنویس فارسی ارائه می شود. منظور از قطعه بندی، یافتن قطعاتی است که بوسیله آنها بتوان کلیه کلمات را ایجاد کرد. این الگوریتم بر اساس یافتن نقاط اصلی در یک کلمه و مقایسه شیب و زوایای پاره خطهای متصل کننده این نقاط به یکدیگر، قطعه بندی را انجام می دهد. در طراحی الگوریتم از یک مجموعه تمرین با 20 کلمه و از هر کلمه 2 نمونه دستنویس افراد مختلف است...

15 صفحه اول

بازشناسی برون خط کلمات دستنویس فارسی با تاکید بر تشخیص نام 30 شهر

سیستم ها و نرم افزارهای بازشناسی نوری نویسه ها(ocr) هم اکنون بسیار متداول شده اند و در کاربردهای فراوانی که مبتنی بر تشخیص نوری علائم و نوشتارهای تایپی و دستنویس میباشند مورد استفاده قرار میگیرند. در مورد بازشناسی علائم و نوشتارهای زبان فارسی به ویژه دستنویس های فارسی این سیستم ها و نرم افزارها هنوز از دقت بازشناسی مناسبی برخوردار نیستند. بنابراین ما در این پایان نامه بر روی بازشناسی کلمات دستن...

15 صفحه اول

شناسایی برون خط کلمات دستنویس فارسی در یک مجموعه محدود

هدف این رساله ارائه روشهای بدون قطعه بندی برای شناسایی کلمات دستنویس فارسی در یک مجموعه محدود است . اصولا" روش های بدون قطعه بندی، براساس ویژگیهایی از تمام کلمه یا زیرکلمه عمل می کنند. در این رساله یک نمایش جدید دوبعدی برای کلمات دستنویس فارسی پیشنهاد شده است . همچنین روشی برای تعمیم الگوریتم dtw به دوبعد ارائه شده و برای مقایسه کلمات بکار رفته است . برای آزمون روشهای مختلف ، از یک مجموعه محدود...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده برق و الکترونیک

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023